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ПОНЯТИЕ «БЛИЗОСТИ» В ЗАДАЧАХ 
КЛАСТЕРИЗАЦИИ: ВЫЧИСЛИТЕЛЬНЫЕ 
ПРОБЛЕМЫ И ВОЗМОЖНЫЕ ПУТИ ИХ РЕШЕНИЯ 


В контексте проблемы кластеризации предприятий под кластером по- 
нимается квазиинтегрированная структура, которая состоит из юридически 
независимых компаний, не располагает существенной рыночной властью, 
но в которой осуществляется контроль над управлением активами этих 
фирм. Другими словами, кластер может состоять из предприятий, специ- 
ализированных в определенном секторе производства и локализованных 
географически. 

Вместе с тем, ограничиваясь географическими рамками, мы изначально 
существенно сужаем возможности кластеризации. Развитие коммуникаций 
на всех уровнях, начиная от транспортного и заканчивая Интернетом, от- 
крывает перед возможным объединением предприятий новые перспективы. 
В связи с этим представляется интересным рассмотреть возможности кла- 
стеризации в рамках целой отрасли или даже группы смежных отраслей. 
Разумеется, ручными методами это сделать невозможно — придется при- 
влекать автоматическую кластеризацию. При этом на первый план выходят 
проблемы, связанные с мерами близости (сходства), на основе которых ав- 
томатические методы работают [1]. 

Прежде всего, заметим, что кластеризация есть неуправляемая класси- 
фикация, которую нужно отличать от управляемой классификации, како- 
вым является дискриминантный анализ [2]. В этом смысле мы не можем 
заранее знать, сколько кластеров может быть выявлено. Поэтому удобно 
применять процедуры иерархической кластеризации, которые дают весь 
спектр (дерево) кластеров, а выбор того или иного уровня дерева остается 
за исследователем. Перед началом такой процедуры все объекты считаются 
отдельными кластерами, которые в ходе алгоритма объединяются. Вначале 
выбирается пара ближайших кластеров, которые объединяются в один кла- 
стер. В результате количество кластеров становится равным М№-1. Процеду- 
ра повторяется, пока все классы не объединятся. На любом этапе процесс 
объединения можно прервать, получив нужное число кластеров. 

Отметим, что современные методы кластеризации могут работать как с 
количественными, так и с неколичественными данными. Неколичествен- 
ные данные по своему происхождению -— это, вообще говоря, данные, из- 
влекаемые из текстовых документов, а следовательно, семантически плохо 
определенные; их структура не обязательно является регулярной. На фор- 
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мальном уровне единицей анализа является поименованная сущность (объ- 
ект данных), описываемая произвольным набором элементарных свойств 
(качеств). Другими словами, сущность определяется как подмножество во 
множестве свойств / качеств. Свойство, в свою очередь, определяет, по- 
средством своей встречаемости, группу сущностей, и, следовательно, мо- 
жет рассматриваться как подмножество во множестве сущностей. Таким 
образом, мы имеем симметрию, позволяющую обрабатывать сущность и 
ее свойства схожим образом: рассматривая набор данных как два множе- 
ства, описываемых зависимостью типа «многие-ко-многим». Однако надо 
отметить, что, хотя такая симметрия не всегда осмыслена на уровне интер- 
претации, она всегда присутствует с формальной точки зрения. Поэтому 
возможный способ анализа существенным образом опирается на этот факт. 
На практике набор данных существует как последовательность записей, 
каждая из которых описывает один объект (определяет его имя и набор ка- 
честв). Качества могут принадлежать к различным группам. Эти группы 
могут служить аналогами переменных («полей» - в терминах баз данных), 
а качества, им принадлежащие, — значениям переменных. Но группы, с 
одной стороны, могут иметь более одного значения для каждой записи, а 
с другой стороны, их существование в общем случае необязательно. Более 
того, группы качеств могут существовать динамически и приобретать раз- 
личный смысл в процессе анализа. Наша основная задача — определение 
близости между такими «группами качеств». 

Рассмотрим основные меры близости, которые могут быть использованы 
при кластеризации предприятий. Большинство мер близости по существу 
являются мерами сходства или, напротив, несходства, либо могут быть све- 
дены к ним. Наиболее известен так называемый «геометрический подход» 
к измерению близости (Эвклидова мера). Однако он не всегда приводит к 
наилучшим результатам, поскольку во многих случаях измерять следует не 
расстояние, а сходство (или несходство) между объектами. 

Дадим следующие определения. Пусть пространство К, = {(х, ..., Х,): 
х >0}. 

Мерой сходства назовем функцию 5: Ох О -> К, ‚ обладающую следую- 
щими свойствами: 

51.085 05% У) = 

92.9 (ХХ) =1. 

53. в (Х, У) =Ъ (У, Х). 

Иногда 52 заменяется более жестким требованием $2”. $ (Х, Х) = шах 
9.2. У). 

Симметричность меры сходства является не столь обязательным, сколь 
традационным требованием. Так, сходство предприятий Х и У нессиме- 
трично, если в качестве его меры рассматривать поток компонентов произ- 
водства из Х вУ. 

По аналогии с мерой сходства определим и меру несходства. Мерой не- 
сходства в пространстве В, называется функция О: Ох О -> В, обладаю- 
щая следующими свойствами: 

01.0= ООС =Ь 

р. хХ=0. 
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Б.О СХ 

Очевидно, по заданной мере сходства 3 всегда можно построить меру 
несходства Р=1-5 и наоборот. Сходство объектов в принципе может быть 
измерено не только по наличию, но и по отсутствию у них одних и тех же 
признаков. 

Обобщением понятия связи (корреляции) величин, измеренных в шкале 
не ниже порядковой, является понятие соответствия, которое может быть 
полным или частичным. Необходимое условие полного соответствия — рав- 
номощность сравниваемых множеств. 

Во многих прикладных задачах разумно считать значения мер близости 
не «числовыми», а порядковыми. Это связано как с неточностью, «засо- 
ренностью» исходных данных, так и со специфическими характеристиками 
алгоритмов обработки данных. В этом смысле можно считать, что в боль- 
шинстве случаев меры сходства и несходства, рассчитанные по описанию 
объектов некоторыми признаками, дают не количественную, а, в лучшем 
случае, порядковую информацию о близости. С другой стороны, для упо- 
рядочения объектов достаточно порядковой информации об их близости. 
Если считать, что близость объектов может измеряться в порядковой шка- 
ле, то равноценными можно считать любые меры близости, монотонно свя- 
занные друг с другом: р' и р" эквивалентны, если для любых Х, У, 7, Т 

р 6 =р == Ор, 1). 

Меры близости, удовлетворяющие такому условию, иногда называют 
комонотонными. 

Интересно изучать сходства самих мер близости. Если при использо- 
вании каких-то мер близости в работе некоего алгоритма анализа данных 
всегда получаются достаточно близкие или сопоставимые результаты, то 
такие меры близости разумно считать сходными. Наиболее простой способ 
сравнения функций близости р' и р" — это непосредственное сопоставление 
полученных с их помощью матриц близости || р' ||, || р"||. Заключение об 
эквивалентности двух мер близости либо о наличии стохастической связи 
между ними может быть сформулировано в рамках проверки соответствую- 
щей гипотезы с помощью статистик, основанных на матрицах расстояний. 
Для сопоставления мер близости используются также методы многомерно- 
го шкалирования. 

Характеризуя методы автоматической классификации с точки зрения воз- 
можности распространения выборочных результатов на генеральную сово- 
купность, отметим, что статистические критерии значимости для проверки 
гипотезы о принадлежности объектов к тем или иным группам разработа- 
ны слабо. Полученная многомерная классификация может рассматриваться 
как характерная именно для изучаемой совокупности (как это обычно при- 
нято в анализе данных). 

Особенностью представления параметров предприятий является тот 
факт, что множество параметров Ё может быть разложимо на на К < п групп 
признаков существенно различной природы, например, измеренных в раз- 
личных шкалах: ЁП Е! = © при 1+ ]. Тогда существует К частных расстоя- 
ний между Х и У, каждое из которых может быть определено с помощью 
неких частных мер близости. Все К частных расстояний можно считать из- 
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меренными в одной и той же шкале — шкале отношений, так что в прин- 
ципе можно попытаться оценить среднее расстояние (если это не лишено 
содержательного смысла). 

Нетрудно показать, что практически любые средние, используемые при 
обработке реальных данных о предприятиях, могут быть определены как 
решение оптимизационной задачи: 


т 
Ур(х,Х) > ор 
— (1), 
где р — мера близости, а максимум (либо минимум) суммы близостей 
ищется на некотором множестве О допустимых значений переменной Х. 
Таким образом, теоретико-измерительные проблемы адекватности средних 
и мер близости тесно связаны [3]. 

Активное использование как самих эмпирических близостей, так и 
функций от них выдвигает ряд серьезных требований к выбору мер бли- 
зости, адекватности алгоритмов анализа близости и обоснованности по- 
следующей интерпретации результатов. Исчерпывающее обсуждение всех 
вытекающих при этом вопросов вряд ли вообще возможно. 

Обратим все же внимание на одну из наиболее актуальных проблем. Хо- 
рошо известно, что реальные данные далеко не всегда соответствуют той 
несложной модели, которую мы рассматривали выше. 

Так, множество признаков Ё зачастую избыточно вследствие понятного 
опасения исследователя упустить некие факторы, относительную важность 
которых трудно определить заранее. С другой стороны, некоторые суще- 
ственные признаки могут быть все же пропущены. Сказанное справедливо 
не только для множества признаков, но отчасти и для возможного множе- 
ства рассматриваемых объектов. Наконец, в большинстве случаев доступ- 
ные и включенные в рассмотрение признаки разнотипны - это и номиналь- 
ные, и порядковые, и количественные переменные. Указанные обстоятель- 
ства подчеркивают стохастический характер исходных данных и приводят 
к выводу о необходимости статистической оценки измеряемого сходства, 
корреляции, расстояния и пр. 

Для коэффициентов обычной и ранговой корреляции имеется развитое 
табличное обеспечение, позволяющее проверять гипотезу об отсутствии 
связи (Н, : г = 0, где г- некий коэффициент корреляции) как при большом, 
так и при малом объеме выборки. Статистический анализ близости связан с 
существенно большими сложностями, прежде всего из-за затруднений с са- 
мой формулировкой нуль-гипотезы. Здесь можно предложить следующий 
подход. Поскольку набор номинальных признаков Ё выбирается априо- 
ри, наблюдаемое совпадение их у объектов Х, У может быть обусловлено 
случайными причинами. Нуль-гипотеза состоит в том, что распределение 
признаков на каждом из объектов — равномерное, а проверять ее можно, 
например, по отклонению величины мощности пересечения | Х ПУ | от 
математического ожидания (при Н.). Тогда, если мощность каждого из мно- 
жеств Х, У фиксирована, величина | Х П У | имеет гипергеометрическое 
распределение с параметрами | Х |; | У |, п. Значимость величины 


| ХПУ | или, что то же самое, отклонения от нуля величины 
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| ХПУ | - (1/1) | Х| | У | = И (а - 5<) при заданном уровне довери- 
тельной вероятности может быть проверена с помощью соответствующих 
таблиц. 

При описании предприятий нередко используют дихотомические при- 
знаки. Например, ответ на вопрос, есть ли у предприятия лицензия на про- 
изводство данного вида продукции, может быть либо «да», либо «нет». 
Если мы рассматриваем пару предприятий, то дихотомическая мера близо- 
сти между ними может быть описана в терминах четырехклеточной табли- 
цы сопряженности: 

— а- число признаков, отсутствующих у Х иУ одновременно, 

— Ч— число совпадающих признаков, 

— Ь (или с) — число признаков, присутствующих у Х, но отсутствующих 
уУ (или наоборот), 

ао е+а=а. 

К настоящему моменту исследованы асимптотические свойства расстоя- 
НИЙ 

Б1= (6 +с) / а+Б+с-+4), 

24 = (6 +с) / ($ +с+9). 

Найдены несмещенные оценки параметров асимптотического распреде- 
ления вектора попарных расстояний, что позволяет строить соответствую- 
щие алгоритмы проверки согласованности, находить оценки для диаметра 
кластера и пр. 

В случае разнотипных данных (К групп данных) целесообразно приме- 
нять набор из К частных мер близости, каждая из которых инвариантна по 
отношению к допустимым в данной шкале преобразованиям. 

Если веса в формулах ассоциативной меры близости порядка р не пред- 
ставляется возможным назначить априори, разумно будет перейти к ран- 
жированным матрицам близости. В зависимости от результатов проверки 
конкордации К ранжировок попарных близостей следует либо построить 
среднюю в смысле (1) ранжировку (Н, отклонена), либо провести класте- 
ринг ранжировок (Н, не отклонена) и привлечь дополнительную информа- 
цию для окончательного решения. 

Рассматривая проблему измерения близости, мы убедились в том, что она 
не имеет простого и однозначного решения для всего многообразия задач 
кластеризации. В зависимости от существа поставленной задачи, характера 
и объема доступной информации и т. д. исследователь должен самостоя- 
тельно и последовательно проанализировать как теоретико-измерительные, 
так и содержательные аспекты этой проблемы в своем конкретном случае. 
Окончательный выбор может и не свестись к какой-либо одной море бли- 
зости или к одному-единственному алгоритму анализа близостей. Однако 
разработанные к настоящему времени теоретические основы измерения 
близости позволяют существенно снизить область поиска и принять обо- 
снованное решение. 

Обратим еще внимание на проблему изучения результатов кластериза- 
ции, а именно — свойств кластеров. Одно из таких свойств — это плотность 
распределения точек внутри кластера. Насколько данный кластер является 
компактным, или же наоборот — достаточно разреженным. Несмотря на до- 
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статочную очевидность этого свойства, однозначного способа вычисления 
такого показателя (плотности) не существует. Наиболее удачным показате- 
лем, характеризующим компактность, плотность «упаковки» многомерных 
наблюдений в данном кластере, является дисперсия расстояния от центра 
кластера до отдельных точек кластера. Чем меньше дисперсия этого рас- 
стояния, тем ближе к центру кластера находятся объекты, тем больше плот- 
ность кластера. И наоборот, чем больше дисперсия расстояния, тем более 
разрежен данный кластер, и, следовательно, есть точки находящиеся как 
вблизи центра кластера, так и достаточно удаленные от центра кластера. 

Необходимость обработки больших массивов данных приводит к фор- 
мулированию требований, которым, по возможности, должен удовлетво- 
рять алгоритм кластеризации. Коснемся их кратко: 

1) минимально возможное количество проходов по базе данных; 

2) работа в ограниченном объеме оперативной памяти; 

3) возможность прерывания работы алгоритма с сохранением промежу- 
точных результатов, чтобы продолжить вычисления позже. 

Алгоритм, удовлетворяющий данным требованиям (особенно второму), 
будем называть масштабируемым. Масштабируемость — важнейшее свой- 
ство алгоритма, зависящее от его вычислительной сложности и программ- 
ной реализации. Имеется и более емкое определение. Алгоритм называют 
масштабируемым, если при неизменной емкости оперативной памяти с уве- 
личением числа записей в базе данных время его работы растет линейно. 

Однако вычислительные способности алгоритма — еще не гарантия успе- 
ха. Большую роль играет возможность учета специфики данных, которая 
часто не позволяет корректным образом использовать хорошо апробиро- 
ванные модели по нескольким причинам: 

1) отсутствие представительной статистики, которую зачастую невоз- 
можно получить из-за больших материальных затрат на ее получение; 

2) наличие пропусков в данных: восстановление или просеивание дан- 
ных возможно при наличии представительной статистики; 

3) интервальный характер данных, обусловленный неопределенностью 
условий их получения; 

4) большая размерность признакового пространства, вызванная нали- 
чием нескольких десятков характеристик предприятий: известные методы 
сжатия «не работают», поскольку требуют проведения корректной норми- 
ровки. 

Несколько слов стоит сказать и о пороговых значениях при объедине- 
нии объектов в кластеры. Слишком низкая величина порога приводит к 
образованию чрезмерно большого числа близких классов, что замедляет 
как работу самого алгоритма, так и последующего этапа слияния. Слиш- 
ком большая величина приводит к объединению в один кластер, например, 
существенно различных предприятий. Поскольку такая ошибка не может 
быть исправлена на этапе слияния, следует склоняться к выбору меньшего 
порога. Его численное значение может быть определено по критическим 
точкам распределения выбранной статистики критерия однородности. 

Отметим также, что данные для кластеризации предприятий могут быть 
взяты в том числе из Геоинформационных систем (ГИС). Согласно теории 
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Л.А. Лютого [4], геоинформационные описания базируются на трех основ- 
ных сферах представления знаний: невербальные знания, которые не могут 
быть представлены в вербальной форме; вербальные знания, которые не 
могут быть адекватно переведены в невербальную форму; и та часть зна- 
ний, которая может быть представлена в вербальной и невербальной фор- 
мах. Современные алгоритмы кластеризации могут работать и с данными, 
представленными в невербальной форме (изображениями). 

В заключение коснемся вопроса оценки эффективности кластеризации. 
Как отметил В.П. Третьяк, «с точки зрения отраслевого рынка, результа- 
тивность функционирования малого бизнеса в кластере может оцениваться 
показателем доли малого бизнеса в выпуске отраслевой продукции. По не- 
которым международным нормам такой долей могла быть 30 % в отрасле- 
вом предложении. С точки зрения субъекта рынка, результативность функ- 
ционирования малого бизнеса в кластере может оцениваться показателями 
самого кластера: прибыльность, восприимчивость инновациям, финансо- 
вые потоки и т. п. Кроме того, стремление войти в тот или иной кластер 
конкретной малой фирмы также можно рассматривать как показатель по- 
пулярности кластера. В качестве показателей результативности функцио- 
нирования кластера может выступать также наличие или отсутствие в нем 
третейских судов, общественных объединений, работающих на принципах 
саморегулирования, форм доверия между участниками кластера, прозрач- 
ности коммерческой информации внутри кластера» [5]. 

С этой точки зрения удачная кластеризация может в значительной степе- 
ни содействовать эффективности кластеров предприятий. 
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